package com.example.demo.util;

import org.jsoup.Jsoup;

public class HtmlUtil {
    public static String getHtmlContentCharset(String htmlPageContent) {
        // 根据网页源码，找到编码格式
        String charset = "utf-8";
        if (htmlPageContent.contains("charset=")) {
            String[] charsetStr = htmlPageContent.split("charset=");
            charset = charsetStr[1].split("\"")[0];
        }
        return charset;
    }

    /**
     * 使用jsoup解析获取得网页内容，并返回某个标签内的内容
      */
    public static String getHtmlContentByTag(String htmlPageContent, String tagName) {
        //页面内容处理
        org.jsoup.nodes.Document doc = Jsoup.parse(htmlPageContent);

        //获取内容
        String bookInfo = doc.select(tagName).text();
        return bookInfo;
    }
}
